메뉴

#자연어 처리

MP
MarkTechPost 3일 전
IMP 8

pgvector 기반 시맨틱, 하이브리드 벡터 검색 구현 가이드

본 튜토리얼은 구글 코랩(Google Colab) 환경에서 PostgreSQL을 강력한 벡터 데이터베이스로 활용하는 전체적인 과정을 다룹니다. pgvector 확장 모듈 설치부터 시작해 SentenceTransformers를 활용한 임베딩 생성 및 저장, 그리고 의미 기반(시맨틱), 하이브리드, 희소(Sparse), 양자화(Quantized) 벡터 검색 시스템 구현 방법을 단계별로 안내합니다. 최신 AI 애플리케이션 개발에 있어 관계형 데이터베이스를 활용한 효율적인 벡터 검색의 중요성과 실무 적용 방법을 이해하는 데 매우 유용한 자료입니다.

벡터 데이터베이스 pgvector 시맨틱 검색
HN
Hacker News 17일 전
IMP 8

EditLens: AI가 수정한 텍스트 정량화

대규모 언어 모델(LLM)이 처음부터 새로 생성한 텍스트가 아니라 사람이 작성한 텍스트를 수정(AI Editing)한 경우를 탐지하는 새로운 연구가 발표되었습니다. 연구진은 원문과 수정문 간의 유사도를 측정하고 학습하여 AI가 개입한 정도를 수치로 예측하는 회귀 모델인 'EditLens'를 제안했습니다. 이 모델은 인간 작성, AI 생성, 혼합(AI 수정) 텍스트를 구분하는 데 90% 이상의 높은 정확도를 보였으며, 저작권 및 교육 정책에 중요한 시사점을 제공합니다.

AI 탐지 기술 자연어 처리 텍스트 편집
HN
Hacker News 22일 전
IMP 5

포르투갈어 LLM 'AMÁLIA'와 오픈소스의 한계

포르투갈 정부의 550만 유로 지원으로 개발된 유럽 포르투갈어 대규모 언어 모델(LLM) 'AMÁLIA'의 기술 보고서를 분석한 글입니다. 이 프로젝트는 언어적 주권을 위해 추진되었으나, 실제 학습에 사용된 유럽 포르투갈어 데이터의 비율이 낮고 모델 가중치 등 핵심 자료가 공개되지 않아 완전한 오픈소스라는 명목에 부합하지 않는다는 비판적 평가를 담고 있습니다.

대규모 언어 모델 오픈소스 자연어 처리
40
404 Media 28일 전
IMP 6

과학자가 밝힌, 꿈을 기이하게 만드는 성격 특성

최근 연구에 따르면 깨어 있는 동안 마음이 자주 헤매는(mind-wander) 사람일수록 꿈의 내용이 더 기이하고 기괴해지는 경향이 있습니다. 연구진은 수천 건의 꿈 보고서를 분석해 개인의 심리적 특성뿐만 아니라 코로나19 팬데믹 같은 외부적 사건도 우리의 꿈 내용에 영향을 미친다는 사실을 입증했습니다.

꿈 연구 인지 과학 심리학
GP
r/ChatGPT 40일 전
IMP 2

AI 특유의 "단순한 A가 아니라 B다" 문장 구조

최근 한 온라인 커뮤니티 사용자가 AI가 자주 생성하는 특유의 문장 구조가 자신의 일상적인 글쓰기에도 크게 영향을 미쳤음을 발견하고 이를 지적했습니다. 특히 긴 줄표(em dash)를 내어주는 것은 괜찮았지만, 이러한 상투적인 강조 문구는 인간 고유의 어투를 잃게 만든다며 불편함을 표했습니다. 이는 생성형 AI의 언어 스타일이 인간의 언어 생활에 미치는 동화 현상과 그로 인한 역설적인 자기 검열 문제를 보여줍니다.

인간-AI 상호작용 자연어 처리 글쓰기 문화
GP
r/ChatGPT 41일 전
IMP 2

이 AI는 대시(-) 기호도 안 쓴다!

최근 한 누리꾼이 특정 AI 모델이 글을 쓸 때 유독 긴 줄표(—)를 남발하지 않는 점을 발견하고, 제발 OpenAI가 이를 패치하지 않기를 바란다는 밈을 공유했습니다. 인간다운 듯하면서도 기계 특유의 티가 나지 않는 자연스러운 문장 스타일에 AI 사용자들의 공감을 얻고 있습니다.

AI 트렌드 자연어 처리
HN
Hacker News 48일 전
IMP 5

AI 기반 X(트위터) 피드 필터링 확장 프로그램 'Bouncer'

원하지 않는 게시물을 자연어로 차단할 수 있는 브라우저 확장 프로그램 및 iOS 앱입니다. 사용자가 '암호화폐', '참여 유도성 글', '분노 정치' 등 필터 주제를 일상 언어로 입력하면 다양한 AI 모델이 게시물을 분류해 실시간으로 숨겨줍니다. 로컬 모델 실행부터 클라우드 API 연동까지 지원하며 이미지 기반 필터링과 차단 사유 투명성 제공이 특징입니다.

브라우저 확장 프로그램 소셜 미디어 필터링 온디바이스 AI
TC
TechCrunch AI 51일 전
IMP 7

브렛 테일러 "버튼 클릭하는 UI 시대는 곧 끝난다"

기업용 고객 서비스 AI 에이전트 스타트업 시에라(Sierra)의 브렛 테일러 공동 창업자 겸 CEO는 복잡한 소프트웨어 인터페이스를 배우고 클릭하는 시대가 저물고, 자연어로 작업을 지시하는 시대가 도래할 것이라고 강조했습니다. 이를 위해 에이전트가 다른 에이전트를 만들어내는 '고스트라이터(Ghostwriter)'를 출시하며, 실제로 노드스트롬(Nordstrom)의 에이전트를 단 4주 만에 구축하는 성과를 보여주었습니다. 하지만 현재 완전한 자율성을 갖춘 AI 에이전트 구현은 아직 초기 단계이며, 원하는 결과를 얻기 위해 엔지니어들의 지속적인 개입과 미세 조정이 필수적이라는 업계의 지적도 존재합니다.

AI 에이전트 시에라 브렛 테일러
MP
MarkTechPost 52일 전
IMP 7

구글 LangExtract와 오픈AI로 구축하는 문서 지능 파이프라인

구글의 LangExtract 라이브러리와 오픈AI 모델을 활용하여 비정형 텍스트를 기계가 읽을 수 있는 구조화된 데이터로 변환하는 방법을 다루는 실전 튜토리얼입니다. 계약서, 회의록 등 다양한 문서에서 엔티티와 리스크를 추출하고, 이를 대화형으로 시각화하여 분석 및 업무 자동화 파이프라인에 활용할 수 있는 점이 핵심입니다. 개발자와 데이터 실무자들에게 매우 유용한 가이드라인을 제공합니다.

langextract openai 데이터 추출